Sains Malaysiana 53(7)(2024): 1715-1728


Machine Learning for Mapping and Forecasting Poverty in North Sumatera: A Data-Driven Approach

(Pembelajaran Mesin untuk Pemetaan dan Ramalan Kemiskinan di Sumatera Utara: Pendekatan Dipacu Data)




Department of Mathematics, Universitas Negeri Medan, Jl. Williem Iskandar Pasar V, Medan, Indonesia


Received: 20 August 2023/Accepted: 13 May 2024



Discussing poverty is crucial because it affects many facets of society, including socioeconomic disparity, crime, and the inability to obtain high-quality education. One of the provinces with the highest poverty rate in Indonesia is North Sumatra. A strategy is required to gather accurate data to effectively reduce poverty. Poverty mapping and prediction were conducted in North Sumatra to get a precise spatial distribution of poverty, the operation of the poverty model, and forecasting using machine learning (ML). Poverty prediction was conducted using a random forest (RF) algorithm and poverty mapping was conducted using the K-Means algorithm. The poverty mapping showed a significant inertia value decline in the third and fourth clusters of the elbow graph. The third cluster (0.313) was superior to the fourth cluster (0.244) in the silhouette index. Thus, there were three poverty clusters - low, medium, and high - that were used in the model. The best model was created using the grid search cross-validation, while the best prediction results were created using the RF algorithm, with the following parameters: n-estimator = 50, max depth = 10, min samples split = 2, and min samples leaf = 1. The mean squared error (MSE) of the RF model's predictions was 0.002617, or satisfactory precision.


Keywords: Cross validation, grid search; K-Means; poverty; random forest regression



Isu kemiskinan merupakan isu penting untuk dibincangkan kerana kemiskinan mempengaruhi pelbagai aspek kehidupan seperti jurang sosio-ekonomi, jenayah serta akses yang terhad kepada pendidikan berkualiti. Sumatera Utara merupakan salah satu daripada 5 wilayah teratas dengan jumlah kemiskinan tertinggi di Indonesia. Suatu strategi diperlukan untuk mendapatkan maklumat kemiskinan yang tepat supaya pengurusan kemiskinan disasarkan dan berkesan. Oleh itu, pemetaan dan ramalan kemiskinan dijalankan bagi mendapatkan maklumat yang lebih terperinci tentang taburan reruang kemiskinan dan apakah model kemiskinan di Sumatera Utara. Pendekatan yang diambil untuk memetakan dan meramalkan kemiskinan di Sumatera Utara ialah dengan menggunakan pembelajaran mesin (ML). Pemetaan kemiskinan dijalankan dengan menggunakan algoritma K-Means, manakala ramalan kemiskinan dijalankan menggunakan algoritma hutan rawak (RF). Hasil yang diperoleh daripada pemetaan kemiskinan di Wilayah Sumatera Utara jika dilihat daripada graf siku menunjukkan graf tersebut masih mengalami penurunan nilai inersia yang mendadak pada kelompok ke-3 dan ke-4. Manakala jika dilihat dari nilai indeks Siluet, kelompok ke-3 adalah lebih tinggi daripada kelompok ke-4 dengan nilai indeks Siluet masing-masing adalah 0.313 dan 0.244. Maka dapat disimpulkan bahawa kluster kemiskinan yang digunakan ialah 3 dengan label rendah, sederhana dan tinggi. Manakala, hasil ramalan menggunakan algoritma hutan rawak dengan teknik keesahan silang carian grid memperoleh model terbaik dengan parameter n penganggar = 50, kedalaman maks = 10, min pecahan sampel = 2 dan min sampel daun = 1. Peramalan model RF menghasilkan ketepatan tinggi yang mencukupi dan Min Ralat Kuasa Dua (MSE) ialah 0.002617.

Kata kunci: Carian grid; keesahan silang; kemiskinan; K-Means; regresi hutan rawak



